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摘要 : 相对 于 单个 参考 基因 组 仅 聚 焦 于 个 体 遗 传 信息 的 挖掘 , 泛 基 因 组 研究 则 能 够 反映 整个 
物种 或 类 群 全 部 的 遗传 信息 。 随 着 基因 组 测序 和 分 析 技 术 的 不 断 发 展 , 泛 基因 组 学 逐渐 成 为 
新 的 研究 热点 ， 并 已 在 植物 、 动 物 和 微生物 多 个 物种 中 获得 了 广泛 应 用 ， 为 全 面 解析 物种 或 
类 群 水 平 的 遗传 变异 和 多 样 性 、 功 能 基因 组 和 系统 进化 重建 等 研究 提供 了 强 有 力 的 工具 , 取 
得 了 很 多 显著 的 研究 成 果 。 尽 管 如 此 ， 由 于 泛 基因 组 学 研究 尚 处 于 发 展 阶段 ， 测 序 费 用 和 分 
析 成 本 仍然 较 高 ， 难 以 广泛 普及 ; 且 存 在 分 析 标 准 不 一 、 数 据 挖掘 不 够 全 面 深入 、 理 论 难 以 
外 用 于 生产 实际 等 尚 待 解决 的 问题 , 仍 有 较 大 的 发 展 空间 。 该 文系 统 总 结 了 泛 基 因 组 在 生物 
遗传 多 样 性 挖 气 和 功能 基因 组 学 中 的 研究 进展 , 主要 包括 其 在 泛 基因 组 图 谱 的 构建 、 基因 组 
变异 和 有 利 基 因 的 发 气 、 功能 基因 的 多 态 性 、 群 体 遗 传 多 样 性 和 系统 进化 等 多 个 领域 中 的 应 
和 研究 ,探讨 了 其 在 不 同 领 域 的 应 用 潜力 。 同时, 讨论 了 目前 泛 基因 组 研究 中 存在 的 局 限 
性 和 可 能 的 解决 方法 ， 并 对 其 将 来 的 发 展 前 景 进行 了 展望 。 
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Abstract: The pan-genome can represent all of the genetic diversities in a species or population, 
which is a limitation for obtaining only one single reference genome. The pan-genomics is 
becoming a new hot research area and being widely applicated in researches of many species in 
plants, animals and microorganisms, as the development of the whole genome sequencing and 
analysis technology. It provided powerful tools for resolving the genetic variation and 
polymorphism at levels of species or taxa, researches of functional genomics and reconstruction of 
phylogenetics, obtaining abundant of significant research achievements. However, present 
researches on pan-genomics still need improve due to several problems, e.g., extensive cost of 
whole genome sequencing and data analysis, inconsistent analysis standards, lack of deeper and 


comprehensive explanation of the obtained data, and difficulty of application of the research 
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achievements. We summarized the research progresses of pan-genomes on exploitation of genetic 
diversity and functional genomics, including construction of a pan genome map, identification of 
genome variations and favorable genes, polymorphism of functional genes, population genetic 
diversity and systematic evolution, and discussed its potential in application of different research 
fields. Furthermore, we discussed the limitations existed in the present studies and possible 
solutions, and directed the development prospect in the future on pan-genomics. 

Key words: Pan-genome, structural variants, functional gene, genetic diversity, systematic 
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遗传 变异 是 生物 进化 的 内 在 源 果 ， 因 而, 研究 遗传 多 样 性 及 其 演化 规律 是 生物 遗传 学 及 
进化 生物 学 研究 中 的 核心 问题 之 一 。 而 泛 基因 组 研究 则 是 近年 来 随 着 测序 成 本 的 急剧 降低 和 
分 析 技 术 的 快速 发 展 而 全 面 反 映 物 种 遗传 变异 的 一 种 新 兴工 具 。 泛 基因 组 研究 能 够 从 物种 或 
类 群 水 平 广泛 发 掘 和 利用 遗传 变异 多 样 性 ， 是 现代 医学 、 生 物 学 、 农 学 中 的 一 个 前 沿 领 域 。 
其 中 ， 泛 基因 组 (pan-genome) 指 一 个 物种 或 者 类 群 的 全 部 基因 组 信息 的 集合 ， 包 括 核心 基因 
组 (core genome) 和 非 必须 基因 组 (dispensable genome) 两 部 分 。 核 心 基 因 指 在 所 有 个 体 中 都 存 
在 的 基因 /组 分 集合 ; 而 非 必须 基因 组 是 指 , 在 部 分 个 体 或 单个 个 体 中 存在 的 基因 /组 分 集合 ， 
有 时 也 称 为 可 变 基因 组 (variable genome) (图 1; Tettelin et al., 2005; Medini et aL, 2005). 4% Ù 
基因 组 由 所 有 样本 中 都 存在 的 序列 组 成 , 往往 与 重要 的 生物 学 功能 和 表 型 特征 相关 ,多 数 是 
一 些 管家 基因 (house-keeping genes), 反映 了 物种 的 稳定 性 ; 可 变 基 因 组 由 仅 在 部 分 样本 中 存 
在 的 序列 组 成 , 一 般 与 物种 对 特定 环境 的 适应 性 或 特有 的 生物 学 特征 相关 , 反映 了 物种 的 多 
样 性 和 特异 性 (Montenegro et al., 2017; Gordon et al., 2017; Wang et al., 2018; Zhao et al., 2018; 
Liu et al., 2020)。 

核心 基因 组 非 必须 基因 组 特有 基因 组 
Core genome Dispensable genome Private genome 


EQ [El ë 个 体 1 Individual 
ZS Ey M42 Individual2 


个 体 3 Individual3 
图 1 泛 基因 组 的 定义 及 其 组 成 部 分 
Fig. 1 Definition and components of the pan-genome 

当前 , 泛 基因 组 研究 已 经 广泛 应 用 于 多 个 植物 、 动 物 和 微生物 物种 中 ， 为 全 面 解析 物种 
或 类 群 水 平 的 遗传 变异 、 功 能 基因 研究 和 系统 进化 重建 等 研究 提供 了 强 有 力 的 工具 , 取得 了 
很 多 显著 的 研究 成 果 ( 付 静 和 秦 启 伟 , 2012; EWM, 2019; Tian et al., 2019; Chen et al., 2020; 
Dominguez et al., 2020; Weissensteiner et al., 2020; Liu et al, 2020)。 然 而 ， 现 有 的 泛 基因 组 学 
研究 主要 聚焦 于 不 同 个 体 基 因 组 序列 和 基因 结构 的 变异 (Montenegro et al., 2017; Zhao et al., 
2018; Gao et al., 2019; Liu et al., 2020)， 但 对 这 些 变异 是 如 何 介 导 基因 结构 和 功能 的 改变 ， 最 
终 影响 生物 表 型 ， 以 及 这 种 遗传 差异 是 如 何 与 环境 因子 互 作 的 ,未 能 进行 深入 探讨 。 本 文 综 
述 了 泛 基因 组 学 在 不 同 物 种 中 的 研究 进展 , 对 其 在 群体 基因 组 变异 、 功 能 基因 的 鉴定 和 发 气 、 
群体 遗传 多 样 性 和 系统 进化 等 多 个 领域 中 的 应 用 与 研究 进行 了 系统 性 总 结 , 并 对 其 应 用 前 景 
和 局 限 性 进行 了 探讨 。 
1 泛 基因 组 图 谱 的 构建 


最 早 在 2005 年 ，Tettelin et al.(2005) 在 对 几 种 链球 菌 属 细菌 (GBS, group B Streptococcus) 
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的 遗传 多 样 性 研究 中 提出 微生物 的 泛 基因 组 概念 , 指出 核心 基因 组 是 在 所 有 菌株 中 都 存在 的 
基因 ; 非 必 须 基 因 组 (可 变 基 因 组 ) 是 仅 在 部 分 菌株 中 存在 的 基因 。 其 中 GBS 菌 共 有 的 核 
心 基 因 组 占 80%， 剩 余 20% 的 基因 组 信息 为 非 必须 基因 组 。 随 后 ，2010 年 Li et al. (2005) 通 
过 对 多 个 人 类 个 体 基因 组 进行 组 装 和 比较 基因 组 学 分 析 , 提出 了 “人 类 泛 基因 组 ”的 概念 ,也 
就 是 人 类 群体 基因 组 信息 的 总 和 ， 并 从 中 鉴定 获得 新 发 现 的 序列 达到 19~40 Mb. mF 
人 基因 组 计划 的 提出 和 实施 , 泛 基因 组 在 人 类 疾病 方面 的 研究 取得 了 许多 重大 突破 , 为 精准 
医疗 计划 提供 了 可 能 (1 000 Genomes Project Consortium, 2012). 

之 后 , 随 着 越 来 越 多 的 物种 完成 了 高 质量 基因 组 参考 序列 的 组 装 , 多 个 动 植物 物种 中 相 
继 报道 了 泛 基 因 组 图 谱 的 构建 相关 研究 工作 。 例 如 ， 通 过 对 全 球 02 个 种 猪 品种 的 基因 组 进 
行 高 质量 组 装 ， 构 建 了 猪 的 泛 基 因 组 图 谱 ， 发 现 中 国 的 猪 品种 有 大 约 9 Mb 的 泛 序 列 

(pan-sequences). 与 欧洲 的 猪 品 种 存在 差异 ， 其 中 包括 脂肪 细胞 脂 解 的 必要 调节 因子 77G3 

(Tazarotene-induced gene 3) (Tian et al., 2019); 对 19 个 小 麦 品 种 的 泛 基因 组 分 析 发 现 ， 平 均 
每 个 样本 中 含有 128 656 个 基因 ， 核 心 基因 有 89 795 个 (Montenegro et al., 2017); 利用 725 
个 番茄 品种 的 基因 组 信息 构建 的 番茄 泛 基 因 组 图 谱 中 ， 整 个 番茄 泛 基因 组 共 包含 40 396 个 
基因 , 其 中 74.2% 是 核心 基因 (Gao et al., 2019)。 此 外 , 泛 基 因 组 在 水 稻 (Schatz et al., 2014;Yao 
et al., 2015; Sun et al., 2017; Wang et al., 2018; Zhao et al., 2018; Zhou et al., 2020)、 KE (Li et 
al., 2014; Liu et al., 2020; 祝 光 涛 和 黄 三 文 , 2020)、 玉 米 (Hufford et al., 2012; Hirsch et al., 2014; 
简 银 巧 等 ,2017) 等 重要 的 植物 物种 均 获 得 了 广泛 应 用 ( 表 1)。 因 此 ， 构 建 整个 物种 的 泛 基因 
组 图 谱 已 成 为 广泛 应 用 的 基因 组 学 方法 , 不 仅 能 够 发 现 全 面 的 遗传 信息 ,而且 能 为 从 物种 和 
群体 水 平 进 行 功能 基因 组 学 、 系 统 进 化 和 其 他 生物 学 研究 提供 更 强 有 力 的 工具 。 
2 泛 基 因 组 学 研究 中 序列 结构 变异 与 功能 基因 发 气 

同一 物种 内 一 个 或 几 个 参考 基因 组 能 够 反映 的 遗传 变异 是 非常 有 限 的 , 而 泛 基因 组 研究 
能 够 覆盖 物种 或 类 群 中 的 所 有 变异 , 为 研究 整个 物种 或 类 群 水 平 上 的 基因 组 序列 和 结构 变异 
提供 了 可 能 ,现代 生物 基因 库 中 的 遗传 变异 通常 包括 单 核 苷 酸 多 态 性 (SNPs， Single-nucleotide 
polymorphisms). 、 捅 入 缺失 (ndels，Insertions and deletions) 和 大 的 结构 变异 (SVs，large 
structural variants)。 其 中 SVs 主要 包括 拷贝 数 变异 (CNVs, copy number variants)、 存 在 /缺失 
变异 (PAVs, presence/absence variants)、 移 位 (translocation events) 和 倒置 (inversion events) 等 ， 
而 这 些 变异 往往 和 一 些 关 键 的 农艺 性 状 相 关 (Springer et al., 2009; Hirsch et al., 2014; Li et al., 
2014; Lu et al., 2015; Zhao et al., 2018). 
通过 泛 基 因 组 分 析 全 面 发 掘 群体 基因 组 中 的 序列 和 结构 变异 , 能 够 鉴定 其 中 与 有 利 表 型 
相关 的 变异 位 点 ， 为 发 掘 和 研究 新 的 功能 基因 提供 了 重要 依据 。 例 如 ， 利 用 66 个 水 稻 高 质 
量 基 因 组 构建 了 水 稻 的 泛 基 因 组 ， 从 中 共 鉴 定 到 16 563 789 个 SNPs. 5 549 290 个 Indels 
和 933 489 个 SVs， 分 析 了 其 中 与 开花 时 间 相 关 的 基因 Hd3a (Heading date 3a)、 抗 寒 性 基因 
COLDI (Chilling tolerance divergence 1)、 谷 物 重 量 基因 GW6a (Grain weight 6a)、 分 蔡 角 度 基 
TACI (Tiller Angle Control 1)、 植 株 高 度 基因 Sd1 (Semi dwarf 1) 在 不 同 材 料 间 的 遗传 变异 ， 
表明 SNPs 变异 是 导致 这 些 基 因 变 异 的 基础 (Zhao et al., 2018)。 而 利用 29 个 高 质量 基因 组 构 
建 的 大 豆 泛 基因 组 图 谱 ， 共 鉴定 获得 14 604 953 个 SNPs. 12 716 823 个 mdels 和 776 399 个 
SV (包含 723 862 个 PAVs. 27 531 个 CNVs、21 886 个 移 位 和 3 120 个 倒置 )， 发 现 有 些 结 
构 变异 在 重要 农艺 性 状 调控 中 发 挥 重 要 作用 ， 如 PAV、 基 因 融 合 和 Indels 分 别 对 种 皮 亮 度 、 
种 皮 颜 色 的 驯化 、 缺 铁 失 绿 等 性 状 具 有 重要 影响 (Liu et al., 2020). 
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同时 ， 在 不 同 层 次 上 发 现 的 多 个 序列 和 结构 变异 ,不 仅 提供 了 更 加 丰富 的 变异 信息 ， 也 
为 研究 基因 功能 变异 提供 了 更 多 素材 。 例 如 , 通过 六 倍 体 普 通 小 麦 物 种 基因 组 间 和 亚 基因 组 
间 的 共 线 性 分 析 ， 提 出 其 “4A-5A-7B 染色 体重 排 " 是 两 次 染色 体 易 位 事件 的 结果 ， 并 明确 了 
重 排 的 基因 组 区 间 的 精细 边界 ; 并 且 在 微观 尺度 上 探讨 了 小 麦 春 化 基因 Vrn2 (Vernalization2) 
的 复杂 进化 历史 ， 发 现 Vrn2 同 源 基 因 在 普通 小 麦 基因 组 中 的 复杂 分 布 是 包含 串联 重复 、 多 
倍 化 、 染 色 体 易 位 和 基因 丢失 在 内 的 一 系列 事件 登 加 的 结果 (Chen et al., 2020)。 另 有 研究 利 
用 100 个 番茄 基因 组 中 捕获 到 238 490 个 SVs， 构 建 得 到 泛 结构 变异 (panSV) 图 谱 ， 研 究 表 
明 SVs 是 许多 转 座 子 的 基础 , 而 且 SVs 集中 区 域 的 基因 渐 渗 现象 严重 , 且 群 体 中 90% 的 SVs 
变异 可 在 泛 基因 组 图 谱 中 获得 验证 (Alonge et al., 2020). 
3 泛 基 因 组 学 研究 中 功能 基因 的 变异 与 多 态 性 

遗传 结构 变异 通常 会 导致 基因 功能 的 改变 , 泛 基因 组 研究 能 够 通过 全 面 整 合 相关 基因 的 
遗传 信息 , 揭示 基因 重组 、 融 合 等 事件 导致 基因 功能 的 获得 、 丢 失 , 以 及 发 掘 新 基因 。 例如 ， 
大 豆 缺 铁 萎 黄 病 有 关 的 候选 基因 被 定位 于 14 号 染色 体 上 ， 通 过 泛 基 因 组 研究 发 现 该 候选 基 
因 有 两 种 单 倍 型 : 品种 “中 黄 13? 所 属 的 单 倍 型 主要 分 布 在 低 纬度 地 区 ;品种 “威廉 82” 所 属 
的 单 倍 型 主要 分 布 在 高 纬度 地 区 ， 能 够 在 高 PH 值 、 铁 为 不 易 吸收 的 难 溶 氧化 物 等 环境 中 生 
存 ， 这 种 单 倍 型 启动 子 区 有 1.4 kb 的 Indel 和 外 显 子 区 有 5 个 变异 位 点 (Liu et al., 2020)。 在 
油菜 中 通过 全 PAV- GWAS (genome wide association study) 分 析 发 现 3 个 开花 抑制 因子 
BnaA10.FLC. BnaA02.FLC 和 BnaCO2.FLC 的 PAVs 与 油 业 的 开花 时 间 和 生态 型 分 化 密切 相 
关 ， 其 中 : 冬 油 菜品 种 的 BnaAIO.FLC 启动 子 区 都 含有 MITE (Miniature inverted repeat 
transposable element)#fiA; 85% 春 油菜 品种 的 BnaAT10.FLC 第 一 个 外 显 子 中 含有 LINE (Long 
interspersed nuclear elements)#&iA; 81 多半 冬 性 油 荣 品种 的 BnaAlO.FLC 启动 子 区 含有 hAT 
插入 ,表明 BnaA70.FLC 决定 了 油菜 生态 类 型 ,是 控制 油菜 开花 的 关键 基因 (Song et al., 2020). 

生物 的 表 型 往往 是 来 自 多 个 基因 网 络 调控 的 结果 , 其 中 很 多 基因 可 能 又 同时 对 多 个 不 同 
的 表 型 性 状 具 有 影响 , 因此 对 某 个 表 型 的 有 利 基 因 亦 有 可 能 对 另 一 个 表 型 具有 不 利 影响 。 例 
如 ， 现 代 和 看 茄 中 的 产量 相关 性 状 调控 机 制 复杂 ， 对 100 个 番茄 基因 组 的 泛 结 构 变 异 (pan-SV) 
的 研究 发 现 , 由 四 个 结构 变异 导致 形成 了 三 个 MADS-Box 基因 , 共同 影响 番茄 的 经 济 性 状 。 
其 中 j2” 基因 型 具有 便于 收获 的 无 关节 花梗 表 型 ， 而 ej2" 基因 型 具有 防止 撞 伤 的 大 花 苯 表 
型 ， 但 两 个 基因 型 同时 出 现 (I2”” ej2”) 则 会 出 现 花序 分 枝 过 多 而 导致 低 育 性 的 现象 ; 
sb1(Suppressor of branching 1) 基 因 型 能 有 效 克 服 双 隐 性 基因 型 的 负面 作用 , 实现 增产 。 另外， 
sb] 基因 型 的 表达 可 能 受 1 号 染色 体 上 STM3 基因 的 串联 重复 序列 影响 ， 且 串联 重复 的 拷贝 
数 具 有 剂量 效应 (Alonge et al., 2020)。 因 此 ， 通 过 在 更 广泛 的 群体 中 研究 基因 功能 变异 对 表 
型 的 影响 ， 将 有 助 于 更 加 准确 地 对 功能 基因 - 表 型 的 关联 做 出 全 面 详细 地 评估 ， 从 而 更 好 地 
的 指导 分 子 育 种 工作 来 培育 出 抗 病 性 更 强 、 产 量 更 高 、 保 质 期 更 长 、 风 味 更 好 的 作物 品种 ， 
同时 又 不 牺牲 其 他 所 期 望 的 表 型 性 状 。 作 物 泛 基因 组 学 研究 已 经 发 现 了 大 量 农艺 表 型 与 特定 
基因 的 存在 、 缺 失 和 变异 之 间 的 多 样 化 的 相关 性 (Tao et al., 2019), 通过 在 泛 基 因 组 完整 遗传 
图 谱 的 基础 上 进行 研究 ， 将 有 利于 彻底 澄清 其 内 在 关联 和 相应 的 机 至 
4 泛 基 因 组 学 研究 在 种 群 遗 传 多 样 性 和 系统 进化 研究 中 的 应 用 

对 泛 基 因 组 学 的 研究 , 不 仅 可 以 全 面 地 从 基因 组 水 平分 析 物 种 内 遗传 多 样 性 , 探究 个 体 
间 的 系统 发 生 关 系 和 表 型 差异 的 遗传 基础 , 而 且 可 以 从 物种 、 亚 种 水 平分 析 基 因 组 的 序列 变 
异 和 系统 进化 特征 ,为 研究 物种 的 起 源 及 演化 等 重要 生物 学 问题 提供 依据 。 例 如 ,通过 水 稳 
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泛 基 因 组 对 6 个 水 稻 群 体 中 
的 一 个 亚 类 群 ) 并 未 全 部 聚 在 栽 : 
选择 状态 (Zhao et ab, 2018)。 利 


构建 了 系统 进化 树 ， 


GE) 


化 有 关 的 7 个 基因 


j 小 麦 泛 基 因 
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位 点 开展 进化 分 析 , 发现 Aus 群体 (Indica 
涪 稳 进化 分 支 上 ， 从 而 提出 Aus 水 稻 群 体 处 于 不 完全 驯化 
组 对 19 个 小 麦 个 体 基因 的 PAVs 进行 了 发 掘 并 
发 现 小 麦 品 种 中 国 春 位 于 进化 树 的 基部 ,为 小 麦 不 同类 型 包 
化 关系 和 研究 利用 提供 了 理论 依据 (Montenegro et al., 2017)。 而 对 32 只 乌鸦 群体 的 泛 基 因 组 
研究 ， 将 鸦 属 (Corvus) 分 为 Jackdaw 和 Crow 两 大 文系 ， 并 在 此 基础 上 探讨 了 不 同 进 化 分 文 


质 的 系统 进 


上 乌鸦 的 基因 组 结构 变异 和 功能 性 状 ， 尤 其 是 发 现 乌鸦 羽毛 图 案 差 异 大 ， 但 遗传 差异 不 大 ， 
主要 受 NDP 基因 上 游 20 kb 处 有 一 个 大 小 为 2.25 kb 的 LTR (long terminal repeats) 逆 转 座 子 


插入 调控 (Weissensteiner et al., 2020). 


iz Fe AAA 


FEE HIS PA [e] Hb 
CHAP BAIA, REE 


类 型 中 差异 较 大 的 种 质 资源 进行 基因 组 测序 ， 
因 的 补充 、 物 种 多 样 性 及 适应 性 进化 、 起 源 经 历 和 外 来 物种 


入 侵 性 等 问题 的 研究 提供 重要 信息 。 例 如 ,大豆 群体 的 生物 地 理 分 析 发 现 现代 栽培 大 豆 起 源 


于 中 国 的 华北 地 区 (Liu et al., 2020), MKAA 


更 广泛 的 研究 ， 


有 不 同 遗 传 结构 的 里 
因此 也 有 学 者 提 H 
围 种 质 群 体 的 遗传 基 而 


5 泛 基 因 组 学 研究 的 发 展 前 景 


真 核 生物 的 全 部 基因 组 
究 大 多 关注 的 是 核 基 


组 学 


了 超 - 泛 基 
tH 及 其 多 样 性 (Khan et al., 2019). 


f 体 的 相关 研究 发 现 现 代 栽 培 稳 起 源 地 应 该 包括 
中 国 华南 地 区 (Huang et al., 2012)。 此 外 ， 由 于 一 些 作 物 的 基因 库 中 包括 多 个 物种 ,特别 是 具 
生 近 缘 物 种 , 需要 构建 含 该 作物 所 有 品种 及 其 近 缘 种 的 遗传 图 谱 以 进行 
因 组 (SuperPangenome) 的 概念 ， 


以 探讨 更 大 范 


言 息 包括 核 基 因 组 、 线粒体 基因 组 和 质 体 基 因 组 。 目前 的 泛 基因 
办 组 , 而 线粒体 和 质 体 这 两 种 细胞 器 的 泛 基 因 组 研究 也 逐渐 开始 


被 重视 。 例 如 ， 研 究 者 利用 PCAWG (The Pan-Cancer Analysis of Whole Genomes) 数据 库 中 


2,658 个 癌症 样本 及 其 匹配 的 正常 组 引 


:样本 的 全 基 


因 组 数据 构建 了 人 类 线粒体 基因 组 最 全 


的 突变 蓝图 ， 并 确定 了 多 个 高 度 突变 类 型 ， 其 中 截断 突变 (truncated mutations) 在 肾脏 癌症 、 
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究 者 利 


种 的 叶绿体 泛 基因 组 ， 其 不 


也 对 7 个 叶绿体 泛 基因 组 的 


了 详尽 分 析 ， 确 定 了 rpl23 和 tral 的 基因 


多 叶绿体 基因 


结 直 肠 癌 和 甲状 腺 癌 中 明显 富 集 , 提示 了 激活 特殊 的 信号 通路 或 会 带 来 致癌 影响 (Yuan et al., 
321 +R ALA 


组 ， 构 建 了 辣椒 5 个 栽培 种 及 2 个 变 


CDS (Coding 


晶 用 系统 发 育 


信号 分 析 揭 示 了 辣椒 属 不 同 种 间 杀 缘 关 系 的 远近 ， 


sequence)、 内 含 子 和 基因 间隔 区 的 遗传 多 样 性 进行 


核 苷 酸 等 丰富 的 变异 (Magdy et al., 2019). 


在 某 些 物种 中 ， 


由 于 其 基因 


间隔 区 包含 44 bp 串联 重复 以 及 其 他 插入 缺失 和 单 


组 较 大 和 可 移动 元 件 的 比例 较 高 等 原因 , 使 得 泛 基因 组 研究 


难以 有 效 开 展 , 因此 ,关注 全 部 RNA 信息 的 泛 转 录 组 (pan-transcriptome) 研 究 开始 逐渐 兴 


许多 重要 作物 如 玉米 (Hansey et al., 2012; Hirsch et al., 2014; f4 


巧 等 , 201 RIA Zé (Ma etal., 


2019)， 以 及 模式 生物 拟 南 芥 (Gan et al., 2011) 等 的 泛 转 录 组 研究 均 已 有 报道 。 


随 着 多 种 测序 技术 的 结合 和 分 析 策 略 上 
是 大 多 数 研究 的 深入 程度 不 一 ,六 
的 基因 图 谱 后 , 很 多 
究 ， 更 不 用 说 应 用 于 生产 实践 。 此 外 ， 随 着 大 量 生物 信息 学 数据 的 积累 ， 单 个 团队 面 对 
浩大 的 数据 库 也 只 能 选择 部 分 数据 结果 i 
类 基因 组 计划 从 开始 启动 到 现在 已 经 过 去 30 年 ， 仍 需 大 量 的 人 力 投 入 和 研究 分 析 去 解决 更 
所 和 良好 平台 是 泛 基因 组 学 研究 良性 发 展 和 应 用 


AEA 


多 的 问题 。 因而 , su 


善 的 数据 共享 机 


F 多 数据 结果 
究 止 步 于 对 某 几 个 基因 的 结构 变异 i 


的 发 展 , 泛 基因 组 学 相关 研究 呈现 爆发 式 增长 , 但 


仍 有 进一步 深入 挖掘 的 空间 。 尤其 是 构建 完整 


行 鉴定 , 未 进一步 开展 系统 的 功 


ui 


行 深 入 研究 ， 难 以 充分 利用 现 有 的 数据 。 例 如 ， 人 


的 一 个 
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重要 条 件 。 目 前， 我 国 已 建立 了 国家 基因 组 科学 数据 中 心 (NGDC, National Genomics Data 
Center)， 某 些 重 要 农作物 或 农业 动物 物种 的 泛 基 因 组 数据 也 建立 了 数据 分 享 平台 ， 如 猪 的 
泛 基 因 组 数据 库 PIGPAN (http://animal.nwsuaf.edu.cn/code/index.php/pan-Pig)、 大 白菜 基因 组 
数据 库 BRAD (the Brassica database, http://brassicadb.cn) 和 油菜 泛 基 因 组 资源 数据 库 
(http://cbi.hzau.edu.cn/bnapus/) 等 。 

此 外 ， 进 一 步 整 合 更 广泛 的 多 层次 群体 基因 组 数据 ， 如 不 同 世代 之 间 的 泛 基 因 组 研究 、 
整合 多 个 物种 的 超 - 泛 基 因 组 研究 等 ， 可 能 是 值得 进一步 探索 的 新 方向 (图 2)。 另 一 方面 ， 随 
着 测序 技术 的 不 断 发 展 ,尤其 是 单 细 胞 测序 技术 的 发 展 ， 和 测序 成 本 进一步 降低 ， 单 细胞 分 
辨 紊 的 转录 组 图 谱 已 经 逐步 开始 在 水 稻 和 玉米 的 根 发 育 研究 中 获得 应 用 (Satterlee et al., 
2020; Liu et al., 2021)。 因 此 ， 同 一 个 体 不 同 组 织 器 官 的 泛 基因 组 或 泛 转 录 基 因 组 研究 ， 旋 
至 不 同 细胞 之 间 的 泛 基因 组 或 泛 转 录 基 因 组 研究 也 可 能 成 为 新 的 发 展 方向 (图 2)。 
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图 2 泛 基 因 组 (转录 组 ) 研究 现状 与 可 能 的 发 展 方向 


Fig. 2 The research status and prospect of Pan-genome (Pan-transcriptome) 
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Table 1 Related researches on crop pan-genomes 


研究 对 象 
Object of study 


样本 数量 
Sampling 


主要 研究 内 容 
Main research content 


参考 文献 


Reference 


水 稳 (Oryza sativa, KARL 


Rice (Oryza sativa, Poaceae) 


水 稳 (Oryza sativa, RREH 


Rice (Oryza sativa, Poaceae) 


水 稳 (Oryza spp.， 禾 本 科 ) 
Rice (Oryza Spp., Poaceae) 


水 稻 〈Oryza safiva， 禾 本 科 ) 


Rice (Oryza sativa, Poaceae) 


玉米 (Zea mays， 禾 本 科 ) 


Maize (Zea mays, Poaceae) 


玉米 (Zea mays， 禾 本 科 ) 


Maize (Zea mays, Poaceae) 


玉米 (Zea mays, AAR) 


Maize (Zea mays, Poaceae) 


玉米 (Zea mays， 禾 本 科 ) 


Maize (Zea mays, Poaceae) 


小 麦 (Triticum aestivum, FASB) 


Wheat (Triticum aestivum, Poaceae) 


M 


M 


WN (Triticum aestivum, FAR) 


Wheat (Triticum aestivum, Poaceae) 


KÆ (Hordeum vulgare, RFH 


Barley (Triticum aestivum, Poaceae) 


3 个 水 稻 材 料 ， 包 括 Nipponbare, IR64, DJ123 

3 divergent rice including Nipponbare, IR64, DJ123 
3010 个 亚洲 栽培 稻 

3 010 diverse Asian cultivated Tice 


66 个 水 稻 材 料 ， 包 括 栽培 稻 O. sativa 和 野生 稻 O. rufipogon 


66 divergent rice, including cultivated rice (O. sativa) and wild rice (O. 


rufipogon) 


12 个 水 稻 品 种 
12 of cultivated rice 


75 个 个 体 ， 包 括 野生 种 、 本 地 品种 和 改良 品种 


75 wild, landrace and improved maize lines 


503 个 玉米 自 交 系 
503 maize inbred lines 


31 份 热带 玉米 自 交 系 

31 tropical maize inbred lines 

440 个 近 交 系 、24 个 高 度 重组 近 交 系 和 16 个 Fl 代 杂 种 

440 inbred lines, 24 highly recombinant inbred lines and 16 F1 hybrids 


中 


到 小 麦 品种 ( Chinese Spring) 和 18 个 小 麦 栽培 种 


15 个 六 倍 体 小 麦 ， 其 中 10 个 个 体 组 装 到 染色 体 级 别 、5 个 组 装 到 scaffold 5 


级 别 


15 Triticum aestivum including 10 chromosome pseudomolecule and 5 scaffold dd 


assemblies of hexaploid wheat 
20 个 大 麦 材料 ， 包 括 了 本 地 品种 ， 栽 培 种 和 野生 品种 


20 varieties of barley comprising landraces, cultivars and a wild barley 


泛 基 因 图 谱 构 建 
Pan-genome construction 
泛 基因 图 谱 构 建 和 基因 结构 变异 
Pan-genome construction and structural 
variation 
泛 基因 图 谱 构 建 、 结 构 变 异 、 功 能 
和 系统 进化 

Pan-genome construction, structural variation, 
functional gene variation and systematic 
evolution 

泛 基因 图 谱 构 建 和 基因 结构 变异 
Pan-genome construction and structural 
variation 
基因 结构 变异 、 功 能 基因 变异 和 系统 进化 
Structural variation, functional gene variation 
and Systematic evolution 
泛 转 录 组 图 谱 构建 和 功能 基因 变异 
Pan-transcriptome construction and functional 
gene variation 

泛 转 录 图 谱 构 建 和 序列 (SNP) 变 异 
Pan-transcriptome construction and sequence 
(SNP) variation 

基因 结构 变异 

Structural variation 

泛 基因 图 谱 构 建 、 基 因 结 构 变 异 和 系统 进化 
Pan-genome construction, structural variation 
and systematic evolution 


谱 构 建 、 基 因 结 构 变 异 和 功能 变异 
Pan-genome construction, structural variation 
functional gene variation 


ll 


AER 


DS 


ES 


泛 基因 图 谱 构建 和 基因 结构 变异 
Pan-genome construction and structural 


Schatz et al., 2014 


Wang et al., 2018 


Zhao et al., 2018 


Zhou et al., 2020 


Hufford et al., 2012 


Hirsch et al., 2014 


简 银 巧 , 2017 
Jian Q, 2017 


Mabire et al., 2019 


Montenegro et al., 
2017 


Walkowiak et al., 
2020 


Jayakodi et al., 2020 


KE (Glycine soja, BE) 
Soybeans (Glycine soja, Fabaceae) 


KE (Glycine soja, iD 
Soybeans (Glycine soja, Fabaceae) 


phi (Solanum spp., WEH 


Tomato (Solanum spp., Solanaceae) 


H 


FJ (Solanum spp., WEH 


Tomato (Solanum spp., Solanaceae) 


PRU CCapsicum spp., SEL) 
Pepper (Capsicum spp., Solanaceae) 


R CCapsicum spp., HEFP 
Pepper (Capsicum spp., Solanaceae) 


向 日 


S 


unflower (Helianthus annuus, 


Asteraceae) 


甘蓝 (Brassica spp.， 十 字 花 科 ) 


Cabbage (Brassica spp., Brasslcaceae) 


2€ (Helianthus annuus, ^g fl) 


7 份 代表 性 里 


EKZ, IAEE 


韩国 和 俄罗斯 


7 G. soja representing the geographical adaptation within the species, 
distributed in North, Huanghuai and South regions of China, and Japan, Korea 


and Russia 


26 (fM 
再 加 上 已 发 表 的 


725 SHA 


glabriusculum, 


493 份 向 日 


T 


、 南 方 和 东北 地 


EKG, AM3 个 野生 大 豆 、9 个 农家 种 和 14 个 现代 栽培 品种 ， 
FX 13. Williams 82 和 W05 

26 representative of soybeans, including 3 wild soybeans, 9 landraces, and 14 
cultivars, and ZH 13, Williams 82 and WO5 in previous studies 


& 3141 317J 372 个 SLL (S. lycopersicum 
var. lycopersicum) & 267 个 SLC (S. lycopersicum var. cerasiforme) ; 近亲 
78 个 SP (S. pimpinellifolium) 和 8 个 SCG (S. cheesmaniaeand var. 
galapagense) 

725 phylogenetically and geographically representative tomato, including 372 
SLL, 267 SLC, 78 SP and 8 SCG. 

100 个 番茄 品种 ,包括 S. pimpinellifolium, S. cheesmaniae, S. galapagense, 
S. lycopersicum var. cerasiforme 和 S. lycopersicum 

100 tomato including S. pimpinellifolium, S. cheesmaniae, S. galapagense, S. 
lycopersicum var. cerasiforme and S. lycopersicum 

383 份 辣椒 材料 , 包括 355 个 C. annuum, 4 ® C. baccatum, 11 * C. 
chinense 和 13 ^^ C. frutescens 

383 cultivars, including 355 C. annuum, 4 C. baccatum, 11 C. chinense and 13 
C. frutescens 

65 个 个 体 ， 包 括 的 物种 有 C. chacoense, 
baccatum var. pendulum, C. annuum var. annuum, C. annuum var. 

C. chinense 和 C. frutescens 

65 samples including C. chacoense, C. baccatum var. baccatum, C. baccatum 
var. pendulum, C. annuum var. annuum, C. annuum var. glabriusculum, C. 
chinense and C. frutescens 


C. baccatum var. baccatum, C. 


x 


variation 


PT 


大 


泛 基 因 图 谱 构 建 、 基 因 结构 变异 、 功 能 


变异 和 系统 进化 

Pan-genome construction, structural variation, 
functional gene variation and systematic 
evolution 


泛 基 因 图 谱 构建 、 基 因 结 构 变异 、 功 能 基因 


pn 


Y 

变异 和 系统 进化 
Pan-genome construction, structural variation， 
functional gene variation and Systematic 
evolution 


us 


和 189 个 野生 近 缘 种 
493 Sunflower varieties including 287 cultivated lines, 17 Native American 
landraces and 189 wild accessions representing 11 compatible wild species. 
9 种 甘蓝 品种 (B. oleracea) 和 一 种 野生 型 


9 cultivated lines (B. oleracea) and one wild type (B. macrocarpa) 


葵 种 质 资 源 ， 包 括 287 个 栽培 种 品系 、17 73 


物种 (B. macrocarpa) 


DS 


谱 构建 、 基 因 结 构 变异 和 功能 基因 


Hb 


泛 基 因 


A ES 
变异 
Pan-genome construction, structural variation 
and functional gene variation 


泛 结构 变异 图 谱 构 建 和 功能 基因 变异 
Pan-structural-variation construction and 
functional gene variation 


泛 基 因 图 谱 构 建 、 基 因 结 构 变 异 和 功能 基因 


PI 


5 EL. 
变异 
Pan-genome construction, structural variation, 
and functional gene variation 


泛 质 体 基因 组 图 谱 构 建 和 基因 结构 变异 
Pan-plastome construction and structural 
variation 


> 


泛 基因 图 谱 构建 和 基因 功能 研究 

Pan-genome construction and functional gene 
variation 
泛 基因 图 谱 构 建 和 系统 进化 


Pan-genome construction and systematic 


DS 


Li et al., 2014 


Liu et al., 2020 


Gao et al., 2019 


Alonge et al., 2020 


Ou et al., 2018 


Magdy et al., 2019 


Hübner et al., 2019 


Golicz et al., 2016 


甘蓝 (Brassica oleracea, FFER) 同 Golicz et al., 2016 


Cabbage (Brassica spp., Brasslcaceae) 


欧洲 油菜 (Brassica napus, 
Brassica napus (Brasslcaceae) 


They used data of Golicz et al. (2016) 


十 字 花 科 ) 53 个 油菜 品种 ， 包 括 33 个 非 人 工 合成 系 和 20 人 工 合成 系 。 


53 Brassica napus varieties including 33 nonsynthetic accessions and 20 
synthetic accessions 


8 个 品种 ， 包 括 4 个 半 冬 性 油菜 品种 〈 中 双 11. Gangan, Wr 7 号 和 胜利 
油菜 )、2 个 冬 油菜 品种 (Tapidor 和 Quinta)、 和 2 个 春 性 油菜 品种 (Westar 


欧洲 油菜 (Brassica napus, 十 字 花 科 ) 和 No2127) 


Brassica napus (Brasslcaceae) 


科 ) 


Arabidopsis thaliana (Brasslcaceae) 


杨 树 (Populus spp.， 杨 柳 科 ) 
Poplar (Populus spp., Salicaceae) 


芝麻 CSesamum indicum, AKER) 
Sesame (Sesamum indicum, 
Pedaliaceae) 


WS (Arabidopsis thaliana, FFE 6 


Eight oilseed rape lines, including four SWORs (ZS11, Gangan, Zheyou7 and 
Shengli), two WORs (Tapidor and Quinta) and two SORs (Westar and 
No2127) 


4 个 拟 南 芥 个 体 
64 A. thaliana 


3 个 异 交 杨 树 CP. nigra. P. deltoides 和 P. trichocarpa) 
3 intercrossable poplar species (P. nigra, P. deltoides, and P. trichocarpa) 


5 个 芝麻 品种 ,包括 两 个 地 方 品 种 (Baizhima 和 Mishuozhima) 和 三 个 现 
在 代 培 品种 CZhongzhil3, Yuzhill 和 Swetha) 

5 sesame varieties including 2 landraces (S. indicum cv. Baizhima and 
Mishuozhima) and 3 modern cultivars (S. indicum var. Zhongzhil3, Yuzhill 
and Swetha) 


evolution 


泛 基 因 图 谱 构 建 、 基 因 结构 变异 和 功能 
变异 
Pan-genome construction, structural variation 

and functional gene variation 

泛 基因 图 谱 构 建 和 基因 结构 变异 

Pan-genome construction and structural Hurgobin et al., 2018 
variation 


大 


PT 


Bayer et al., 2019 


泛 基因 图 谱 构 建 、 结 构 变 异 和 功能 基因 变异 
Pan-genome construction, structural variation Song et al., 2020 
and functional gene variation 


(het 
T 
>| 


` 


iz NLR 基因 图 谱 构建 结构 变异 和 功能 

进化 Van de Weyer et al., 
Pan-NLR-gene construction, structural variation 2019 

and functional gene variation 

泛 基因 图 谱 构 建 、 基 因 结 构 变 异 和 功能 
变异 
Pan-genome construction, structural variation — Pinosio et al., 2016 
and functional gene variation 


大 


Hb 


泛 基因 图 谱 构 建 和 系统 进化 
Pan-genome construction and systematic Yu et al., 2019 
evolution 


